3.1 观察性实验 选择偏差 因果效应的非参数识别

如果我们要阐明因果关系, 且对照实验不可行, 我们可以考虑观察性实验.

1 潜在结果下的因果效应和选择偏差

对单元 i(i=1,,n), 我们有处理前协变量 Xi, 指示是否处理的变量 Zi, 观测结果 Yi (Yi(1),Yi(0)). 假设 {Xi,Zi,Yi(1),Yi(0)}i=1ni.i.d{X,Z,Y(1),Y(0)}. 这样我们去掉下标 i, 定义 τ=E[Y(1)Y(0)], 以及两个组τT=E[Y(1)Y(0)|Z=1],τC=E[Y(1)Y(0)|Z=0].
根据 (1.1), τT=E(Y|Z=1)E(Y(0)|Z=1),τC=E(Y(1)|Z=0)E(Y|Z=0). (注意和 (1.1) 比, 这里没有 CRE 的条件, 所以条件期望里不能完全化为 Y. 我们把这里的 E(Y(1)|Z=0),E(Y(0)|Z=1) 称为反事实(counterfactuals)).
定义简单均值之差[1] τPF=E(Y|Z=1)E(Y|Z=0)=E(Y(1)|Z=1)E(Y(0)|Z=0).
这样,τPFτT=E[Y(0)|Z=1]E[Y(0)|Z=0],τPFτC=E[Y(1)|Z=1]E[Y(1)|Z=0] 通常不是 0, 它们可以用来量化选择偏差.
2.7节 中, 我们在 CRE 中假定 Z {Y(1),Y(0)}, 则 τPF=τT=τC=τ.
从上面的讨论看出, 随机化最主要的好处是平衡潜在结果在两个组中的分布, 这比起观测协变量的平衡要远远更强. 如果没有随机化, 选择偏差可能会很大. 这便是观察性实验本质的难点所在.

2 因果效应非参数检验的充分条件

2.1 识别

观察性实验的因果推断很有挑战, 它依赖很强的假设. 我们可以用处理前协变量的信息, 假设E[Y(0)|Z=1,X]=E[Y(0)|Z=0,X],E[Y(1)|Z=1,X]=E[Y(1)|Z=0,X].


  1. 这里的 PF 代表 prima facie, 拉丁语, 意为基于第一印象. ↩︎